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1 Descrição, exploração e comparação 


1.1 Medidas de tendência central 


1.1.1 Para dados não agrupados 


Média Aritmética: 


Média Aritmética Ponderada: 


Média Geométrica: 


Média Harmônica: 


Média Quadrática: 


Mediana: 


Moda: 











Mediana(x:) = 


(ejoga| +2[e91) 


1 
2 


Moda(x) = valor(es) que mais se repete(m) 


(1) 


(2) 


(3) 


(4) 


(6) 


(6) 


(7) 


Ponto Médio: | 
Ponto médio(a) = max(7) - min() (8) 





1.1.2 Para dados agrupados em classes sem intervalos 


Média Aritmética Ponderada: basta calcular uma média ponderada onde os pesos 1w; 
são as frequências absolutas f; de cada valor x; (e k representa o número de classes/gru- 


pos) 
k 
Dom 
7= E (9) 


k 
»fi 
i=1 


Mediana: amediana é calculada normalmente tendo-se o cuidado de utilizar as frequên- 
cias acumuladas para se determinar os valores corretos de 7 |(n+1)/2] € de L[(n41)/2] 


Mediana(a) = E (2 os + 2fe) (10) 


2 
Moda: basta consultar a tabela de frequências para determinar a(s) moda(s) 


Moda(x) = valor(es) que mais se repete(m) (11) 


Ponto Médio: 
max(a) + min(x) 


Ponto médio(ax) = 5 


(12) 





1.1.3 Para dados agrupados em classes com intervalos 


Obviamente os cálculos apresentados aqui são uma espécie de “gambiarra” pois o bom 
senso manda não realizar cálculos com dados agrupados em classes com intervalos pois 
os resultados serão sempre aproximados e incorretos (sempre que os dados são agrupados 
em intervalos estamos perdendo informações). 

Na verdade eu nem iria incluir tais fórmulas aqui mas, como podem cair nas provas 
e concursos, mesmo contra minha vontade, seguem abaixo. Mas saiba que ninguém usa 
esse tipo de coisa, ninguém calcula nada sério com dados agrupados em intervalos de 
classe. 


Média Aritmética Ponderada: basta calcular uma média ponderada onde os valores x; 
serão representados pelo ponto médio do intervalo, PM,, e os pesos ww; são as frequências 
absolutas f; de cada intervalo (k representa o número de classes/intervalos) 


= Elo. (13) 


Mediana: aqui a coisa fica um pouco mais complicada pois, em primeiro lugar, temos 
que encontrar a classe na qual a mediana se encontra e, depois, utilizar uma fórmula 
específica que leva em conta outras coisas. A fórmula está abaixo e as explicações a seguir: 


; hm /N 
Mediana(a) = Llm + 7º (5 - FAm-1) (14) 


onde temos que: 


e m é a classe na qual a mediana se encontra. A posição da mediana é obtida através 
, 1 n+1 n+1 o 
do cálculo 5 ( | 3 | | 3 ; com a posição calculada, basta consultar a 
tabela de frequências acumuladas para identificar corretamente a classe m na qual 
a mediana se encontra. 





e LL, é o valor do limite inferior do intervalo da classe que contém a mediana. 
e hm é a amplitude do intervalo da classe que contém a mediana. 


e fm é a frequência absoluta de observações no intervalo de classe que contém a 
mediana. 


e FA,, 1 éa frequencia absoluta acumulada da classe imediatamente anterior (m —1) 
à classe da mediana (m). 


Moda: aqui a coisa também fica um pouco mais complicada pois existem pelo menos 
3 maneiras de se calcular a moda em dados agrupados com intervalos de classe, a moda 
bruta, a moda de King e a moda de Czuber. A moda bruta (equação 15) e a moda de 
Czuber (equação 16) são mostradas abaixo, com explicações a seguir: 


LIm + LS 


Moda bruta(x) = 5 


(15) 


DA 
Moda de Czuber(a:) = LI + Cape] h (16) 


onde temos que: 


e m: classe que contém a moda (basta ver a classe que a maior fregiiência: essa é a 
classe que contém a moda). 


e LL, é o valor do limite inferior do intervalo da classe que contém a moda. 
e LS, é 0 valor do limite superior do intervalo da classe que contém a moda. 


e DA é diferença de frequência entre a classe modal e a classe imediatamente an- 
terior. 


e DP éa diferença de frequência entre a classe modal e a classe imediatamente pos- 
terior. 


e héa amplitude do intervalo de classe da classe que contém a moda. 


1.2 Medidas de posição e separatrizes (quantis) 
1.2.1 Observações importantes 


O cálculo dos quantis (quartis, decis e percentis) é extremamente confuso entre os di- 
versos autores e livros. Basta consultar alguns livros diferentes e você verá que existem 
quase tantos modos de se calcular os quantis quantos autores que os descreveram. E a 
coisa ainda fica pior quando você utiliza algum software para os cálculos porque: 


1. Você pode não saber que método o software utiliza para o cálculo e, mesmo se- 
guindo um exmplo de algum livro, o resultado que o software apresenta é um pouco 
diferente; 


2. Osoftware pode oferecer várias maneiras diferentes de calcular os quantis (existem 
mais de 10 maneiras em uso hoje em dia, das quais 8 são bem comuns) e você pode 
não saber como ajustar o software para reproduzir os resultados do livro que você 
está seguindo; e 


3. Os softwares mais sofisticados (R, Octave, Mathematica, Matlab, Stata etc.), além 
de oferecerem vários modos diferentes de cálculo dos quantis, utilizam por padrão 
cálculos avançados, interpolações polinomiais e métodos que nós, meros mortais, 
dificilmente entendemos (figura 1). O melhor que você pode fazer é tentar apren- 
der a utilizar o software do melhor modo possível, tentando mimetizar o que você 
está estudando nos livros, ou “abandonar” os cálculos mais simples (mas não tão 


exatos) apresentados nos livros e tomar como “verdade” os resultados dos softwa- 
res (e mesmo assim, esse resultado pode variar de software para software, depen- 
dendo do método de cálculo utilizado internamente). 


Figura 1: Alguns métodos de cálculos de quantis no Mathematica 





Common choices of parameters include: 
(fo, 0), 11, 03 inverse empirical CDF (default) 
(fo, 0), (0, 13) linear interpolation (California method) 
((1/2, 0), (0, 0)) element numbered closest to qn 
((1/2, 0), (0, 1)) linear interpolation (hydrologist method) 
(fo, 1), fo, 13) mean-based estimate ( Weibull method ) 
(2, -1), to, 1)) mode-based estimate 
((1/3, 1/3), (0, 1H median-based estimate 
((3/8, 1/4), (0, 1)) normal distribution estimate 














FONTE: documentação do Mathematica 
<https://reference.wolfram.com/language /ref/Quantile.html> 


1.2.2 Separatrizes (quantis) para dados não agrupados 


Percentil: aprendendo-se a calcular os percentis, pode-se calcular qualquer outro quan- 
til (decis e quartis) pela equivalência entre eles. O cálculo apresentado aqui é bem simples 
e pode não coincidir com o obtido em softwares estatísticos (ver seção 1.2.1). 


Tr. + XLA4l 
k E o 
Lula) = ( ) n; se lr €Z, Pita) 2 (17) 
L, € R, Falo) = T[Ly] 














onde temos que: 


e kéo percentil que queremos encontrar, em geral 1 < k < 99. 
e n éa quantidade de observações. 


e Ly é o localizador do percentil k, ou seja, indicará a posição do elemento que será 
o k-ésimo percentil. 


e P, éo percentil k que queremos encontrar. Note que o cálculo dependerá se o 
localizador L, é um número inteiro ou fracionário. Se for inteiro, o P;. será a média 
aritmética entre o valor na posição L,. e na imediatamente seguinte, L,. + 1. Se for 
fracionário, P; será o valor de x 1,], OU seja, o valor de x na posição teto de L,.. 
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1.2.3 Separatrizes (quantis) para dados agrupados em classes sem intervalos 


Percentil: utiliza-se a equação 17 apresentada na seção 1.2.2, com o cuidado adicional 
de identificar os valores na frequência acumulada da distribuição de frequências. 


1.2.4 Separatrizes (quantis) para dados agrupados em classes com intervalos 


Percentil: aqui a coisa já complica mais um pouco mais complicada pois, em primeiro 
lugar, temos que encontrar a classe na qual a percentil desejado se encontra e, depois, 
utilizar uma fórmula específica que leva em conta outras coisas. A fórmula está abaixo e 
as explicações a seguir: 


Pi(x) = Lm + = (50) n— FA, 1] (18) 


onde temos que: 
e k representa o percentil desejado. 
e m é a classe no qual o percentil desejado se encontra. A posição do percentil é 


obtida através do cálculo (5 n; com a posição calculada, basta consultar a 


tabela de frequências acumuladas para identificar corretamente a classe m no qual 
o percentil k se encontra. 


e LL, é o valor do limite inferior do intervalo da classe que contém o percentil. 
e hm é a amplitude do intervalo da classe que contém o percentil. 


e fm é a fregiiência absoluta de observações no intervalo de classe que contém o 
percentil. 


e FA,, | éa frequencia absoluta acumulada da classe imediatamente anterior (m —1) 
à classe do percentil (m). 


1.3 Medidas de dispersão 
1.3.1 Para dados não agrupados 


Amplitude: 
Amplitude(x) = max(x) — min(x) (19) 


Desvio médio: a fórmula depende se estamos tratando do desvio médio populacional 
(equação 20) ou do desvio médio amostral (equação 21) 


DX — 4] 


Desvio médio(X) = E (20) 


(x; — 7) 


1= 


(21) 


Desvio médio(a) = i 
n — 


Variância: a fórmula depende se estamos tratando da variância populacional (o?, equa- 
ção 22) ou da variância amostral (s2, equação 23). Também existem fórmulas simplifica- 
das para o cálculo (equações 24 e 25) 


Dx =)? 

4X) = EL (22) 
2 dm: =) 

POIS RE 4 (23) 


Variância (fórmulas simplificadas): existem fórmulas simplificadas que facilitam o 
cálculo da variância (equações 24 e 25) 


(870) (87) 


N2 


(E) (E) 
s(x) = — = (25) 


n(n — 1) 


o (X) (24) 








Desvio-padrão: a fórmula depende se estamos tratando do desvio-padrão populacio- 
nal (o, equação 26) ou do desvio-padrão amostral (s, equação 27) 





(== (26) 


(27) 





Desvio-padrão (fórmulas simplificadas): existem fórmulas simplificadas que facili- 
tam o cálculo do desvio-padrão (equações 28 e 29) 


(80) (87) 


N2 


“(72) (52) 
sin)=/2(X)= mi Ei (29) 


n(n — 1) 








(28) 








1.3.2 Para dados agrupados em classes sem intervalos 

Amplitude: o cálculo é o mesmo, basta observar os valores na tabela de fregiiências 
Amplitude(x) = max(7) — min(x) (30) 

Variância: o cálculo é basicamente o mesmo, onde f; representa a frequência abso- 


luta de cada X, (ou x;) e k representa o número de classes/grupos. Há fórmulas para a 
variância populacional e amostral. 


k 








Do =p 

dO a (31) 
Dota — 7)? 

(a) = El = (32) 


Variância (fórmulas simplificadas): existem fórmulas simplificadas que facilitam o 
cálculo da variância para dados agrupados sem intervalos de classe 


(Ee) (Ee) 


(X) | qa (33) 








n [» pe) - [» fal 
s2(aº) = i=1 i=1 (34) 


n(n — 1) 


Desvio-padrão: o cálculo é basicamente o mesmo, onde f; representa a frequência ab- 
soluta de cada X; (ou x;) e k representa o número de classes/grupos. Há fórmulas para 
o desvio-padrão populacional e amostral. 





BMC 
o(X) =1| E (35) 











s(x) = 14 (36) 


Desvio-padrão (fórmulas simplificadas): existem fórmulas simplificadas que facili- 
tam o cálculo do desvio-padrão para dados agrupados sem intervalos de classe 





dE) 60] 


a(x)=(—EL LA (37) 


+(874=)- (800) 


s(1) = E (38) 











1.3.3 Para dados agrupados em classes com intervalos 


Amplitude: o cálculo leva em conta os limites do primeiro e do último intervalo 
Amplitude(1) = LS, — LI, (39) 
onde temos que: 
e LS, é o valor do limite superior do último intervalo. 


e LI, é o valor do limite inferior do primeiro intervalo. 
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Variância: o cálculo leva em conta o ponto médio PM, de cada classe. Novamente f; 
representa a frequência absoluta de cada classe e k representa o número de classes/gru- 
pos. Há fórmulas para a variância populacional e amostral. 


> fi(PM; — qn)? 
o (X) E i1=1 





= (40) 


k 
> fPM,;— 7) 
i=1 


s2(x) = 





(41) 


n-—l 


Variância (fórmulas simplificadas): existem fórmulas simplificadas que facilitam o 
cálculo da variância para dados agrupados com intervalos de classe 








E (42) 
n [» pm) = os pru) 
s(x) = = ES 1 (43) 


Desvio-padrão: o cálculo é basicamente o mesmo mas leva em conta o ponto médio 
PM, de cada classe. Novamente f; representa a frequência absoluta de cada classe e k: 
representa o número de classes/grupos. Há fórmulas para o desvio-padrão populacional 
e amostral. 





k 
bo f(PM; — wu) 
i=1 


N 





o(X) = (44) 





k 
> JuPM, — 7)? 
1=1 


t)=(E— (45) 





q 


Desvio-padrão (fórmulas simplificadas): existem fórmulas simplificadas que facili- 
tam o cálculo do desvio-padrão para dados agrupados com intervalos de classe 





N [> por) — [» ru) 

















o(X) = é (46) 
k k E 
n [» por) E [» pru) 
pe i=1 i=1 
1.3.4 Coeficiente de variação e escores z 
Coeficiente de variação: 
CV(X) = T x 100 (48) 
CV(a) = - x 100 (49) 
Escores z E 
AX) = Si (50) 
o 
a(a) = 5— (51) 
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